資料全抓或是只抓前幾頁?平台是否會認為請求數過大?需要這麼多資料嗎?
各家關鍵字搜尋的欄位不相同,例如搜尋前端,有的是針對職稱,有的是只要職缺整份內容有有出現前端也算(如下圖),如果職稱沒有出現關鍵字要濾掉嗎?
和前一天比較資料的必要性?還是每天都是全新的一批職缺資料?
- 資料全抓或是只抓前幾頁?是否會平台是否會認為請求數過大?需要這麼多資料嗎?
- 各家關鍵字搜尋的欄位不相同
參考先前 9/27 搜尋前端關鍵字的結果
初估三個求職平台搜尋前端,全部會有 6000 筆以上的數據,
104 職缺數會有上千筆,在預設排序條件下,越後面的頁數,職缺的相關度越低
而在抓取 CakeResume 資料過程中,大約到 72 頁時,出現以下訊息:Too Many Requests
初步評估後,決定先限制抓取的資料頁數,三個求職平台都抓 10 頁的內容
10 頁的內容
職稱包含關鍵字
的公司名稱
排序資料要和前一天比較?還是每天都是全新的一批職缺資料?
原先規劃是每日 8:00
重新抓取平台資料,若該職缺於前一日未出現過,視為新職缺,會在元件上做標示
假設我是使用者,會想知道今日新增的職缺?還是想知道職缺更新的日期?
假設一週甚至一個月都沒使用,標示今日新增的職缺幫助大嗎?職缺網址可能沒變但內容有更新
關於更新狀態,求職平台的格式差異較大,整合上較困難
104 提供特定更新日期
yourator 提供一週內更新、一個月前更新等描述文字
CakeResume 在列表中顯示的是雇主活躍度,必須點進內頁才有職缺的更新狀態
難從既有資訊中得知職缺內容是否有異動,比對 URL 僅能得知有全新的職缺上架,考量標示新上架的職缺可能幫助不大,決定先不額外標示新職缺,每天都是全新的一批職缺資料!